iT邦幫忙

2023 iThome 鐵人賽

DAY 20
1
自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列 第 20

Day 20 - 其他開源資料集、公開平台

  • 分享至 

  • xImage
  •  

這邊會介紹除了 Hugging Face 它本身提供的 Dataset 以外還有哪些資料集我們可以拿來做運用。

1. Kaggle 網站 連結

kaggle 是一個很大的資料科學平台,也是一個資料分析的競賽平台,Kaggle 有各種資料分析的比賽,這邊要註冊帳號。

https://ithelp.ithome.com.tw/upload/images/20231005/20160436lSIrULsrgb.png

其中它有一個 Dataset 專區,提供許多已經被整理好的資料提供大家下載。

https://ithelp.ithome.com.tw/upload/images/20231005/20160436TV99g8FXlD.png

  • 這裡我試著搜尋 NLP 它就會出現這些相關的資料

https://ithelp.ithome.com.tw/upload/images/20231005/20160436Oa8kTe9EoQ.png

  • 我選擇第一個,右上角就有 Download 鍵供我下載

2. Recommender Systems and Personalization Datasets 平台 連結

這個平台是由Julian McAuley在加利福尼亞大學聖地亞哥分校(UCSD)建立的,用於研究和教育目的。它提供了一系列的數據集,這些數據集是由他們的實驗室收集和整理的,用於研究推薦系統和個性化建模相關的問題。

https://ithelp.ithome.com.tw/upload/images/20231005/20160436MATJ1O1Kx3.png

https://ithelp.ithome.com.tw/upload/images/20231005/20160436B2fP5xsLTt.png
這些數據集包含了各種特徵,如用戶和物品的互動、星級評分、時間戳、產品評論、社交網絡數據、物品之間的關係(例如共同購買和兼容性)、產品圖片、價格、品牌和類別信息、GPS數據、心率序列等等。

3. 政府資料開放平台 連結

顧名思義就是提供各種政府機關和相關實體所收集、維護和發佈的數據和資訊。

https://ithelp.ithome.com.tw/upload/images/20231005/20160436my8WR7Hd24.png

  • 它的分類蠻細的,分為中央機關、地方機關、常用主題、服務分類甚至還有檔案格式的分類

https://ithelp.ithome.com.tw/upload/images/20231005/20160436RA6U2gwAkd.png

  • 這邊我選一個農業部活動預告的檔案
  • 它有兩種下載格式 JSON 和 CSV

https://ithelp.ithome.com.tw/upload/images/20231005/20160436I4dR3BI36d.png

4. CKIP Lab 中文詞知識庫 連結

CKIP Lab 是台灣中研院語言學研究所的實驗室,而 CKIP Lab 中文詞知識庫則是該實驗室內負責建設中文詞知識庫的小組它們所建構和維護的中文詞知識庫,知識庫包括了大量的中文詞彙,以及與這些詞彙相關的語義信息、詞性標記、詞義消歧、詞典等,這些資源對於中文自然語言處理和文本分析非常重要。

https://ithelp.ithome.com.tw/upload/images/20231005/20160436a5PvYAhStN.png

  • 提供他們的資源

https://ithelp.ithome.com.tw/upload/images/20231005/20160436SnIWyskirp.png

  • 他們也有使用自己訓練的模型做出 demo 站台供大家試試

參考資料


上一篇
Day 19 - 標記資料工具介紹
下一篇
Day 21 - 使用 Datasets 庫 (1) - Hugging Face Hub 的 dataset
系列文
30天從零開始學習NLP(自然語言處理) 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言